BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

提案手法は主に２つの機構で構成される

1. Multimodal mixture of Encoder-Decoder (MED)

https://gyazo.com/782b3acbf1406632a3ae1d16055465e8

2. Captioning and Filtering (CapFilt):

https://gyazo.com/4eb382f94797e2edf510e49dc6e84fbf

CLIPの使用するデータセットはnoisy

なので, キャプションの取捨選択を自動で行う機構を導入

流れ

1. ノイズを含む元のデータセットでMEDを学習

2. 事前学習されたMEDを用いてCapFiltを実行

3. CapFiitによって得られたデータセットを用いて再度MEDを学習

MED

Image-TextContrastiveLoss(ITC)

画像特徴量と言語特徴量が近づくように学習

Image-TextMatchingLoss(ITM)

画像とテキスト本当にペアであるかを二値分類

LanguageModelingLoss(LM)

入力画像に対する真のキャプションと, 生成されたキャプションとのクロスエントロピー

CapFilt

上に太文字書いたITMを使って画像とテキストが本当にペアであるかを二値分類

ペアでないと判定されたものはデータセットから排除することでデータセットをクリーニング

https://gyazo.com/2bf532d58a8af4320da021d9d3d76bdd